13 research outputs found

    Structuration sématique de documents XML centres-documents

    Get PDF
    La numérisation des documents et le développement des technologies Internet ont engendré une augmentation permanente du nombre de documents et de types de documents disponibles. Face à cette masse documentaire, XML (eXtensible Markup Language) s’est imposé comme format standard de structuration et d’échange de documents. Ainsi, un nombre de plus en plus important de documents devient disponible sous ce format. Ces documents XML peuvent être classés en deux types : les documents XML orienté-données et les documents XML orienté-textes. Les documents XML orienté-données sont constitués d’un ensemble d’éléments généralement courts et précis et sont similaires aux données relationnelles. Nous constatons que les balises utilisées pour ce type de documents décrivent généralement d’une manière précise le contenu, et offrent la sémantique basique nécessaire à la description de l’information (Exemples de balises : Article, Client, Quantité, Prix). A contrario, les documents XML orienté-textes sont riches en texte et utilisent des balises qui reflètent la plupart du temps un découpage (structurel) logique (exemples de balises : Contenu, Section, Paragraphe). Malheureusement, ces balises n’ont qu’une très pauvre vocation sémantique. Partant de cette constatation, le développement d’approches supportées par des outils automatisés permettant de décrire la sémantique des documents XML orientés-textes devient un besoin urgent, voire une nécessité pour certains usages. Dans ce contexte, nous proposons une approche de structuration sémantique des documents XML à partir de leurs structures logiques et de leurs contenus. Elle construit une arborescence de concepts. Cette approche de structuration sémantique passe par quatre phases : 1) Extraction des termes des contenus des documents en utilisant des techniques de recherche d’information ; 2) Détermination d’une taxonomie1 qui sera affectée au document, c’est-à-dire celle qui correspond au mieux à sa sémantique (cette étape se base sur une démarche de pondération d’un ensemble de taxonomies candidates) ; 3) Affectation, à chaque élément feuille de la structure logique du document, du concept le plus significatif à partir de la taxonomie retenue ; 4) Inférence de concepts aux éléments non feuilles du document. Notre approche de structuration sémantique des documents se base sur l’indexation sémantique et diffère des autres travaux par : 1) Le choix d’une taxonomie appropriée pour chaque document, il s’agit de déterminer la taxonomie qui décrit au mieux la sémantique du document, et 2) La pondération des concepts extraits de manière à donner plus d’importance aux concepts les plus spécifiques car nous partons du constat suivant : plus le niveau auquel se situe le concept est bas dans la hiérarchie, plus l’information qu’il apporte est fine et ciblée. Pour exploiter ces structures sémantiques, nous avons étendu le méta-modèle d’entrepôts de documents pour assurer leur stockage. De plus, nous avons introduit le concept de métadocument afin de permettre l’interrogation de ces structures sémantiques. Enfin, pour évaluer nos propositions, nous avons mené un ensemble d’expérimentations sur la collection de documents XML ImageCLEFMed 2010 en utilisant la ressource sémantique MeSH (NML's Medical Subject Headings). Les résultats obtenus montrent que l’algorithme de pondération des concepts des taxonomies qui a été proposé permet de sélectionner avec précision la taxonomie pertinente pour un document donné et, en conséquence, les concepts pertinents à affecter aux éléments feuilles de la structure sémantique de ce document.Le résumé en anglais n'a pas été communiqué par l'auteur

    Structuration sématique de documents XML centres-documents

    Get PDF
    La numérisation des documents et le développement des technologies Internet ont engendré une augmentation permanente du nombre de documents et de types de documents disponibles. Face à cette masse documentaire, XML (eXtensible Markup Language) s’est imposé comme format standard de structuration et d’échange de documents. Ainsi, un nombre de plus en plus important de documents devient disponible sous ce format. Ces documents XML peuvent être classés en deux types : les documents XML orienté-données et les documents XML orienté-textes. Les documents XML orienté-données sont constitués d’un ensemble d’éléments généralement courts et précis et sont similaires aux données relationnelles. Nous constatons que les balises utilisées pour ce type de documents décrivent généralement d’une manière précise le contenu, et offrent la sémantique basique nécessaire à la description de l’information (Exemples de balises : Article, Client, Quantité, Prix). A contrario, les documents XML orienté-textes sont riches en texte et utilisent des balises qui reflètent la plupart du temps un découpage (structurel) logique (exemples de balises : Contenu, Section, Paragraphe). Malheureusement, ces balises n’ont qu’une très pauvre vocation sémantique. Partant de cette constatation, le développement d’approches supportées par des outils automatisés permettant de décrire la sémantique des documents XML orientés-textes devient un besoin urgent, voire une nécessité pour certains usages. Dans ce contexte, nous proposons une approche de structuration sémantique des documents XML à partir de leurs structures logiques et de leurs contenus. Elle construit une arborescence de concepts. Cette approche de structuration sémantique passe par quatre phases : 1) Extraction des termes des contenus des documents en utilisant des techniques de recherche d’information ; 2) Détermination d’une taxonomie1 qui sera affectée au document, c’est-à-dire celle qui correspond au mieux à sa sémantique (cette étape se base sur une démarche de pondération d’un ensemble de taxonomies candidates) ; 3) Affectation, à chaque élément feuille de la structure logique du document, du concept le plus significatif à partir de la taxonomie retenue ; 4) Inférence de concepts aux éléments non feuilles du document. Notre approche de structuration sémantique des documents se base sur l’indexation sémantique et diffère des autres travaux par : 1) Le choix d’une taxonomie appropriée pour chaque document, il s’agit de déterminer la taxonomie qui décrit au mieux la sémantique du document, et 2) La pondération des concepts extraits de manière à donner plus d’importance aux concepts les plus spécifiques car nous partons du constat suivant : plus le niveau auquel se situe le concept est bas dans la hiérarchie, plus l’information qu’il apporte est fine et ciblée. Pour exploiter ces structures sémantiques, nous avons étendu le méta-modèle d’entrepôts de documents pour assurer leur stockage. De plus, nous avons introduit le concept de métadocument afin de permettre l’interrogation de ces structures sémantiques. Enfin, pour évaluer nos propositions, nous avons mené un ensemble d’expérimentations sur la collection de documents XML ImageCLEFMed 2010 en utilisant la ressource sémantique MeSH (NML's Medical Subject Headings). Les résultats obtenus montrent que l’algorithme de pondération des concepts des taxonomies qui a été proposé permet de sélectionner avec précision la taxonomie pertinente pour un document donné et, en conséquence, les concepts pertinents à affecter aux éléments feuilles de la structure sémantique de ce document.Le résumé en anglais n'a pas été communiqué par l'auteur

    Structuration sémantique des documents XML : Expérimentations et évaluation

    Get PDF
    National audienceLa norme XML permet la représentation d'un document selon un découpage logique qui ne reflète généralement pas la sémantique de son contenu. Il serait donc intéressant de compléter la structure logique des documents XML par une structure sémantique. L'objet de cet article est alors d'évaluer l'approche d'extraction de structures sémantiques pour les documents XML que nous effectuons sur un échantillon de documents issus de la collection ImageClef 2010 tout en utilisant le thésaurus MeSH (Medical Subject Headings)

    Semantic structuring of XML documents centers-documents

    No full text
    La numérisation des documents et le développement des technologies Internet ont engendré une augmentation permanente du nombre de documents et de types de documents disponibles. Face à cette masse documentaire, XML (eXtensible Markup Language) s’est imposé comme format standard de structuration et d’échange de documents. Ainsi, un nombre de plus en plus important de documents devient disponible sous ce format. Ces documents XML peuvent être classés en deux types : les documents XML orienté-données et les documents XML orienté-textes. Les documents XML orienté-données sont constitués d’un ensemble d’éléments généralement courts et précis et sont similaires aux données relationnelles. Nous constatons que les balises utilisées pour ce type de documents décrivent généralement d’une manière précise le contenu, et offrent la sémantique basique nécessaire à la description de l’information (Exemples de balises : Article, Client, Quantité, Prix). A contrario, les documents XML orienté-textes sont riches en texte et utilisent des balises qui reflètent la plupart du temps un découpage (structurel) logique (exemples de balises : Contenu, Section, Paragraphe). Malheureusement, ces balises n’ont qu’une très pauvre vocation sémantique. Partant de cette constatation, le développement d’approches supportées par des outils automatisés permettant de décrire la sémantique des documents XML orientés-textes devient un besoin urgent, voire une nécessité pour certains usages. Dans ce contexte, nous proposons une approche de structuration sémantique des documents XML à partir de leurs structures logiques et de leurs contenus. Elle construit une arborescence de concepts. Cette approche de structuration sémantique passe par quatre phases : 1) Extraction des termes des contenus des documents en utilisant des techniques de recherche d’information ; 2) Détermination d’une taxonomie1 qui sera affectée au document, c’est-à-dire celle qui correspond au mieux à sa sémantique (cette étape se base sur une démarche de pondération d’un ensemble de taxonomies candidates) ; 3) Affectation, à chaque élément feuille de la structure logique du document, du concept le plus significatif à partir de la taxonomie retenue ; 4) Inférence de concepts aux éléments non feuilles du document. Notre approche de structuration sémantique des documents se base sur l’indexation sémantique et diffère des autres travaux par : 1) Le choix d’une taxonomie appropriée pour chaque document, il s’agit de déterminer la taxonomie qui décrit au mieux la sémantique du document, et 2) La pondération des concepts extraits de manière à donner plus d’importance aux concepts les plus spécifiques car nous partons du constat suivant : plus le niveau auquel se situe le concept est bas dans la hiérarchie, plus l’information qu’il apporte est fine et ciblée. Pour exploiter ces structures sémantiques, nous avons étendu le méta-modèle d’entrepôts de documents pour assurer leur stockage. De plus, nous avons introduit le concept de métadocument afin de permettre l’interrogation de ces structures sémantiques. Enfin, pour évaluer nos propositions, nous avons mené un ensemble d’expérimentations sur la collection de documents XML ImageCLEFMed 2010 en utilisant la ressource sémantique MeSH (NML's Medical Subject Headings). Les résultats obtenus montrent que l’algorithme de pondération des concepts des taxonomies qui a été proposé permet de sélectionner avec précision la taxonomie pertinente pour un document donné et, en conséquence, les concepts pertinents à affecter aux éléments feuilles de la structure sémantique de ce document.Le résumé en anglais n'a pas été communiqué par l'auteur

    A Semantic Approach for XML Document Warehousing and OLAP Analysis

    No full text
    International audienceThe nature of data sources together with the multiple alternative descriptions for the documents available in these sources are continuously evolving. Furthermore, these changes are speeded up by the spreading out of the Web and the intensive use of XML documents. However, the main drawback of the logical structure of XML documents is its poorness of the semantics incarnated in documents. Consequently, the need of an approach for determining a semantic structure for an XML document as well as the development of dedicated software tools to handle this structure reveals as an urgent requirement. This paper attempts to alleviate these drawbacks. Thus, it proposes a new approach for determining a semantic structure for an XML document. This structure helps to get much more benefits from the content of documents especially for the decision-making process that should be enhanced with semantic-OLAP for documents

    Data_Sheet_3_The Delta variant wave in Tunisia: Genetic diversity, spatio-temporal distribution and evidence of the spread of a divergent AY.122 sub-lineage.PDF

    No full text
    IntroductionThe Delta variant posed an increased risk to global public health and rapidly replaced the pre-existent variants worldwide. In this study, the genetic diversity and the spatio-temporal dynamics of 662 SARS-CoV2 genomes obtained during the Delta wave across Tunisia were investigated.MethodsViral whole genome and partial S-segment sequencing was performed using Illumina and Sanger platforms, respectively and lineage assignemnt was assessed using Pangolin version 1.2.4 and scorpio version 3.4.X. Phylogenetic and phylogeographic analyses were achieved using IQ-Tree and Beast programs.ResultsThe age distribution of the infected cases showed a large peak between 25 to 50 years. Twelve Delta sub-lineages were detected nation-wide with AY.122 being the predominant variant representing 94.6% of sequences. AY.122 sequences were highly related and shared the amino-acid change ORF1a:A498V, the synonymous mutations 2746T>C, 3037C>T, 8986C>T, 11332A>G in ORF1a and 23683C>T in the S gene with respect to the Wuhan reference genome (NC_045512.2). Spatio-temporal analysis indicates that the larger cities of Nabeul, Tunis and Kairouan constituted epicenters for the AY.122 sub-lineage and subsequent dispersion to the rest of the country.DiscussionThis study adds more knowledge about the Delta variant and sub-variants distribution worldwide by documenting genomic and epidemiological data from Tunisia, a North African region. Such results may be helpful to the understanding of future COVID-19 waves and variants.</p

    Data_Sheet_1_The Delta variant wave in Tunisia: Genetic diversity, spatio-temporal distribution and evidence of the spread of a divergent AY.122 sub-lineage.PDF

    No full text
    IntroductionThe Delta variant posed an increased risk to global public health and rapidly replaced the pre-existent variants worldwide. In this study, the genetic diversity and the spatio-temporal dynamics of 662 SARS-CoV2 genomes obtained during the Delta wave across Tunisia were investigated.MethodsViral whole genome and partial S-segment sequencing was performed using Illumina and Sanger platforms, respectively and lineage assignemnt was assessed using Pangolin version 1.2.4 and scorpio version 3.4.X. Phylogenetic and phylogeographic analyses were achieved using IQ-Tree and Beast programs.ResultsThe age distribution of the infected cases showed a large peak between 25 to 50 years. Twelve Delta sub-lineages were detected nation-wide with AY.122 being the predominant variant representing 94.6% of sequences. AY.122 sequences were highly related and shared the amino-acid change ORF1a:A498V, the synonymous mutations 2746T>C, 3037C>T, 8986C>T, 11332A>G in ORF1a and 23683C>T in the S gene with respect to the Wuhan reference genome (NC_045512.2). Spatio-temporal analysis indicates that the larger cities of Nabeul, Tunis and Kairouan constituted epicenters for the AY.122 sub-lineage and subsequent dispersion to the rest of the country.DiscussionThis study adds more knowledge about the Delta variant and sub-variants distribution worldwide by documenting genomic and epidemiological data from Tunisia, a North African region. Such results may be helpful to the understanding of future COVID-19 waves and variants.</p

    Data_Sheet_4_The Delta variant wave in Tunisia: Genetic diversity, spatio-temporal distribution and evidence of the spread of a divergent AY.122 sub-lineage.PDF

    No full text
    IntroductionThe Delta variant posed an increased risk to global public health and rapidly replaced the pre-existent variants worldwide. In this study, the genetic diversity and the spatio-temporal dynamics of 662 SARS-CoV2 genomes obtained during the Delta wave across Tunisia were investigated.MethodsViral whole genome and partial S-segment sequencing was performed using Illumina and Sanger platforms, respectively and lineage assignemnt was assessed using Pangolin version 1.2.4 and scorpio version 3.4.X. Phylogenetic and phylogeographic analyses were achieved using IQ-Tree and Beast programs.ResultsThe age distribution of the infected cases showed a large peak between 25 to 50 years. Twelve Delta sub-lineages were detected nation-wide with AY.122 being the predominant variant representing 94.6% of sequences. AY.122 sequences were highly related and shared the amino-acid change ORF1a:A498V, the synonymous mutations 2746T>C, 3037C>T, 8986C>T, 11332A>G in ORF1a and 23683C>T in the S gene with respect to the Wuhan reference genome (NC_045512.2). Spatio-temporal analysis indicates that the larger cities of Nabeul, Tunis and Kairouan constituted epicenters for the AY.122 sub-lineage and subsequent dispersion to the rest of the country.DiscussionThis study adds more knowledge about the Delta variant and sub-variants distribution worldwide by documenting genomic and epidemiological data from Tunisia, a North African region. Such results may be helpful to the understanding of future COVID-19 waves and variants.</p

    Data_Sheet_2_The Delta variant wave in Tunisia: Genetic diversity, spatio-temporal distribution and evidence of the spread of a divergent AY.122 sub-lineage.PDF

    No full text
    IntroductionThe Delta variant posed an increased risk to global public health and rapidly replaced the pre-existent variants worldwide. In this study, the genetic diversity and the spatio-temporal dynamics of 662 SARS-CoV2 genomes obtained during the Delta wave across Tunisia were investigated.MethodsViral whole genome and partial S-segment sequencing was performed using Illumina and Sanger platforms, respectively and lineage assignemnt was assessed using Pangolin version 1.2.4 and scorpio version 3.4.X. Phylogenetic and phylogeographic analyses were achieved using IQ-Tree and Beast programs.ResultsThe age distribution of the infected cases showed a large peak between 25 to 50 years. Twelve Delta sub-lineages were detected nation-wide with AY.122 being the predominant variant representing 94.6% of sequences. AY.122 sequences were highly related and shared the amino-acid change ORF1a:A498V, the synonymous mutations 2746T>C, 3037C>T, 8986C>T, 11332A>G in ORF1a and 23683C>T in the S gene with respect to the Wuhan reference genome (NC_045512.2). Spatio-temporal analysis indicates that the larger cities of Nabeul, Tunis and Kairouan constituted epicenters for the AY.122 sub-lineage and subsequent dispersion to the rest of the country.DiscussionThis study adds more knowledge about the Delta variant and sub-variants distribution worldwide by documenting genomic and epidemiological data from Tunisia, a North African region. Such results may be helpful to the understanding of future COVID-19 waves and variants.</p

    Image_1_The Delta variant wave in Tunisia: Genetic diversity, spatio-temporal distribution and evidence of the spread of a divergent AY.122 sub-lineage.TIF

    No full text
    IntroductionThe Delta variant posed an increased risk to global public health and rapidly replaced the pre-existent variants worldwide. In this study, the genetic diversity and the spatio-temporal dynamics of 662 SARS-CoV2 genomes obtained during the Delta wave across Tunisia were investigated.MethodsViral whole genome and partial S-segment sequencing was performed using Illumina and Sanger platforms, respectively and lineage assignemnt was assessed using Pangolin version 1.2.4 and scorpio version 3.4.X. Phylogenetic and phylogeographic analyses were achieved using IQ-Tree and Beast programs.ResultsThe age distribution of the infected cases showed a large peak between 25 to 50 years. Twelve Delta sub-lineages were detected nation-wide with AY.122 being the predominant variant representing 94.6% of sequences. AY.122 sequences were highly related and shared the amino-acid change ORF1a:A498V, the synonymous mutations 2746T>C, 3037C>T, 8986C>T, 11332A>G in ORF1a and 23683C>T in the S gene with respect to the Wuhan reference genome (NC_045512.2). Spatio-temporal analysis indicates that the larger cities of Nabeul, Tunis and Kairouan constituted epicenters for the AY.122 sub-lineage and subsequent dispersion to the rest of the country.DiscussionThis study adds more knowledge about the Delta variant and sub-variants distribution worldwide by documenting genomic and epidemiological data from Tunisia, a North African region. Such results may be helpful to the understanding of future COVID-19 waves and variants.</p
    corecore